max rank | avg. rank | sentence |
---|---|---|
529 | 125.2500 | Tako je bilo do rata, a danas Hrvata gotovo da i nema. |
555 | 240.3333 | Po popisu stanovništva iz kolovoza 2007. |
605 | 236.3333 | Stanovništvo Prema popisu stanovništva iz 2009. |
632 | 262.0000 | Do danas je objavio je četiri knjige pjesama. |
703 | 252.2857 | Stanovništvo Danas, prema popisu stanovništva iz 2001. |
703 | 315.4444 | Stanovništvo Stanovništvo 2001. godine Po popisu stanovništva iz 2001. |
746 | 478.1429 | Životopis O njegovom životu ima malo podataka. |
756 | 230.0000 | Grad je prema popisu stanovništva iz 2002. |
780 | 230.1250 | U Hrvatskoj U Hrvatskoj je početkom 20. st. |
805 | 417.2222 | U sastavu općine nalaze se 2 naselja (stanje 2011. |
824 | 346.6667 | Danas na otoku živi 14 stanovnika (prema popisu 2001. |
873 | 375.9286 | 13. rujna 2005. sastav je objavio kako će album biti objavljen 1. studenog 2005. |
889 | 505.8571 | Album je ponovno objavljen 21. travnja 2009. |
1022 | 196.5833 | U to vrijeme bio je jedan od najboljih i najvećih na svijetu. |
1040 | 192.6364 | Prema popisu stanovništva iz 2010. u njemu je živjelo 17 stanovnika. |
1126 | 527.1667 | Nekoliko utakmica prije kraja sezone 1995. |
1181 | 485.2857 | Nakon toga je započeo razvoj samog aviona. |
1188 | 549.2000 | Ne zna se koji je sastav točno započeo ovaj stil. |
1204 | 408.5000 | A koliko često to ovih dana možemo reći za bilo koji film?" |
1215 | 417.7000 | Stanovništvo Prema popisu iz 2011. naselje je imalo 13 stanovnika. |
1269 | 312.9091 | Do sukoba je došlo nekoliko mjeseci nakon što je na tzv. |
1313 | 362.1000 | U tom se slučaju svaka nalazi na svojoj strani broda. |
1319 | 406.4444 | Nakon rata toga počinje novo razdoblje u životu sela. |
1323 | 398.0000 | Glavni dio snimanja počeo je 1. travnja. |
1327 | 466.1111 | Na toj dužnosti ostao je do 13. veljače 2010. |
1383 | 451.6154 | Na toj dužnosti je ostao od 27. veljače do 20. svibnja 1992. godine. |
1391 | 474.7000 | Po njima danas nosi ime jedno jezero, rijeka i selo. |
1410 | 409.6250 | Međutim njihova vojska i nije bila baš velika. |
1436 | 370.1000 | Pjesma je objavljena 1. prosinca kao drugi singl s albuma. |
1436 | 497.1250 | Pjesma je objavljena kao treći singl s albuma. |
The maximum word rank of a sentence is by definition the rank of the rarest word in the sentence. If it is low, all words in the sentence are of high frequency. For this reason the table of the sentences with least maximum word number might be of interest. In the table, we see the corresponding sentences with a minimum length of 40 characters.
The over all distribution of the maximum rank in all sentences of the corpus is shown in a diagram with log-scaled x-axis.
The sentences in the table described above are of interest because they are usually easy to understand. The distribution may give insights into the corpus and may give parameters for language comparison.
While the distribution might be deduced from a small corpus, the sentences in the table are rare and a large corpus will give more impressive results.
Table data:
select max(w_id)-100 as m, avg(w_id)-100 as a, s.sentence from sentences s, inv_w i where s.s_id=i.s_id and length(sentence)>40 and i.w_id>100 group by s.s_id order by m limit 30;
Distribution data;
select m, count(*) from (select 100* round((max(w_id)-100)/100) as m from sentences s, inv_w i where s.s_id=i.s_id and i.w_id>100 group by s.s_id) aa group by m;
Explain the distribution, especially the increase in its right part.
4.5.2.2 Average word rank in sentence
4.5.2.3 Sentences consisting of many low frequency words I
4.5.2.4 Sentences consisting of many low frequency words II
4.5.2.5 Sentences consisting of short words only I
4.5.2.6 Sentences consisting of short words only II
4.5.2.7 Sentences consisting of long words only I
4.5.2.8 Sentences consisting of long words only II